数据分析实践项目101

查看原文

其他

数据分析实践项目101

Original 2016-12-19 Peter 混沌巡洋舰

数据科学家是一个很酷选的工作，不是吗？

可是要让自己走上变成一个数据科学家的第一步了？你需要什么了？

答案是get your hand dirty，去做一个项目。

可是该做什么了？不会写代码可以吗？下面的项目可以带你迈出第一步。

词频分析是一项简单而实用的分析技术，也是本项目的核心技术。下面描述具体怎么做

首先找到最近几年的经济学人，分别将其转换为txt格式。这里选择英文版是英文不需要做分词（用空格就可以了）。之后用python或者其他什么你熟悉的编程语言来统计不同文章的词频，之后将上一步产生的词频数据导入excel，寻找变化趋势，对数据可视化。不会写统计词频的代码，网上有很多现成的代码，你需要的是能将其运行起来，并改的能为你所用。

这看起来不难，但难的是数据分析的部分，你得出了词频是原始数据，而表示变化趋势的要是百分数。这里谁去做分母，是否要考虑不同年份的文章长短不同的影响。是仅仅统计一个词出现的次数，还是关注在这一年的文章中这个词出现在多少篇文章中，或者讲粒度放的更宽，看看有多少期杂志的文章提到了这个词。接下来，可对词语进行归类，将不同的词按照不同的维度归并，来看到更宏观的趋势。

下一步是怎么表示自己发现的问题，描述数据，首先要将清楚数据本身的含义和局限，之后要给出对所发现趋势的解释以及其背后所代表的意义。

这只是第一步的调查，接下来有兴趣的童鞋可以去问更进一步的问题，比如将词语按词性分类，那些形容词在Economist杂志中被最经常用到，那些形容词成为了最近几年的热词。有些最近出现的词语由于分词技术被分成了多项，比如（gene editing和virtual reality），如何修改你的程序，让这些本该被统计在一起的词语不干扰你的数据。

解决了这些问题，你就可以做横向的比较了。将数据来源从Economist换成纽约时报，华尔街日报等，这次你不一定需要统计完整的词频，只需要统计一下你关心的词语在不同刊物上出现的次数，再对数据进行归一化，即将去除不同来源数据本身大小的影响，我们就可以去做聚类，无论是用PCA（参考该怎么看待降维这件事）还是tsne，都有开源的包，我们可以根据词频来判断不同媒体的属性。只是这里的关键变成了选择那些词语的频率，而这里就是所谓的特征选择，你看看你变换不同类型的词语，比如先看看就科技问题的报道，你关注的这些媒体是否会聚成几类，这种聚类是否符合你的预期，再换一组描述国际关系的词语，看看是否会生成不同的聚类结果。

拿数据说话，是未来任何职业都必须的技能。如果你对这个项目感兴趣，欢迎你将你尝试和分析的结果写下来，发到guoruidong517@126.com，我们会在公众号上展示你的结果，并将打赏的钱发给你的。不过这都不是最终目的，最终目的是为了让自己有所提高。在巡洋舰AI时代招你远航中，很多小伙伴有兴趣，不过缺少能快速上手的项目，这不有了吗？

如果你有进一步的问题，欢迎联系铁哥，微信号 ironcruiser 。

更多阅读

巡洋舰征稿帖

不积跬步无以至千里 -巡洋舰经典文章集锦，期待新的开始

巡洋舰驶上新航道

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

著名口述史学者Portelli的一部被忽视的口述史作品 | 一个工业小镇的传记：意大利特尔尼（1831-2014）